查看原文
其他

阿里双11集团技术总指挥——汤兴:一场不亚于移动化的变革已经发生

赵钰莹 淘系技术 2021-08-11
嘉宾|汤兴(花名:平畴)
出品|InfoQ&阿里巴巴新零售淘系技术部

嘉宾简介:兴(花名:平畴),现任阿里巴巴副总裁,领导包括淘宝技术、天猫技术、农村淘宝技术、闲鱼、躺平 等多个团队组成的新零售技术事业群淘系技术部,致力于打造消费者和商家一体化的新零售智能商业平台,开创场景化新赛道。汤兴博士拥有超过十年全球 TOP IT 公司研发及管理方面的工作经验,曾任谷歌上海研发中心技术总监,负责了 Google 视频搜索业务及参与 YouTube 视频搜索服务的研发,后加入爱奇艺担任 CTO,全面推动了视频行业产品技术用户体验的创新和发展。



前言


2019 年 11 月 11 日,这是阿里巴巴所有技术人经历的第 11 次技术大考。这一年,阿里巴巴实现了核心交易系统 100% 上云,总销售额达 2684 亿元。在 QCon 全球软件开发大会(北京站)2020 即将召开之际,阿里巴巴副总裁、2019 年双 11 集团技术总指挥汤兴(花名:平畴)受 InfoQ 采访邀约,为大家分享了这场意义非凡的变革以及阿里新零售的技术方向。


从爱奇艺 CTO 到淘系技术掌门人


2019 年,汤兴正式加入阿里巴巴集团,任职阿里巴巴集团副总裁,花名平畴。整体负责包括淘宝技术、天猫技术、农村淘宝技术、闲鱼、躺平 等多个团队组成的新零售技术事业群淘系技术部。

翻开平畴的履历,他拥有超过十年全球 TOP IT 公司研发及管理方面的工作经验。加入阿里之前,平畴最近的一份工作经历是任职爱奇艺 CTO,他带领爱奇艺技术团队建立起全球首个基于视频数据理解人类行为的视频大脑——爱奇艺大脑,让机器能够理解视频内容,并领导在视频社交领域推出爱奇艺泡泡,开创了视频社交先河。

双 11 现场的平畴

双 11 之前,阿里宣布由平畴担任本届双 11 集团技术总指挥,从视频领域到新零售领域,角色转变的同时,还要带领技术团队面对双 11 流量高峰的挑战,压力可想而知,但平畴很快就适应了这种变化。

看懂两者之间的内在联系与差异,就很容易在两个领域切换和适应。

采访中,平畴表示,视频是内容行业,本质上是内容虚拟商品的供给与需求匹配。阿里是电商行业,主要是实物商品的供给与需求匹配,两者既有相同之处也有不同之处,比如一个没有库存,一个有库存;一个通过线下物流履约,一个通过线上数字媒体传送;一个侧重营销交易活动运营,一个侧重主题运营活动等。无论是虚拟数字经济还是实物经济,都脱离不了零售的本质,供给与需求的有效匹配,而技术体系的框架也基本类似。


第 11 个“双 11”:一场堪比无线化的变革


2019 年,双 11 直播已成为淘宝内容生态里程碑式的节点,其意义可对标当年的无线化变革。

回忆起 2019 年的 11 月 11 日,平畴表示,淘宝经历了一场意义完全不亚于无线化的变革,那就是直播。

如今,不知还有多少人对淘宝当年的那场无线化变革印象深刻。

2013 年,移动化的浪潮来了,所有人都感受到了移动化即将带来的巨变。阿里集团一声令下,正式宣布“ALL IN 无线”战略,很多人被从原有部门放到战场最前线,有人不适应走掉了,后续的再补上,就这样不断调整和优化。

2016 年,现任阿里巴巴 CEO 张勇正式向外宣布淘宝网与无线淘宝合并,淘宝成功从 PC 时代转型为移动时代。事后证明,如果不是这场变革,我们很难见到如今的淘宝。

  业务形态在变,技术必须跟上


“在云原生的大潮下,新一代的技术变更可能才刚刚开始,核心交易系统百分百上云可以说是整个基础设施最大的变化以及技术突破。但是,在基础设施的变化之外,整个业务形态也发生了巨大改变。”

平畴在采访中表示,这种业务形态的改变指的就是直播。淘宝从 2015 年就开始做直播,短短四年打造了一个年成交千亿的行业。

2019 年,双 11 直播已成为淘宝内容生态里程碑式的节点,其意义可对标 2015 年的淘宝无线化。当天,淘宝直播成交近 200 亿(2019 年双 11 总交易额为 2684 亿元),超过 50% 的品牌商家通过直播获得增长。

如今,直播已经成为天猫双 11 商家的标配,直播的内容形式与图文截然不同,更强调实时互动和流畅的观看体验,而这些特点对消息通道、网络和 CDN 等软硬件资源提出了苛刻的要求。

既要保证用户体验,又要追求技术上的最低成本,包括最小带宽消耗、最大机型覆盖等。平畴带领的技术团队遇到了很大挑战。

为了解决直播中可能遇到的问题,淘宝直播技术团队自研音视频实时通信引擎,采用去中心化的设计方式,支持横向级联,实现大规模低延时直播,时延从原先的 5 到 7 秒降低至 1 秒内,并在弱网下有更好的表现。

虽然做足了准备,但平畴回想起当下,坦言还是有些担心:“很怕发生预期外的问题,尤其是新场景、新用户动线和新架构。”

实践证明,历年双 11 期间产生的相对严重问题,往往都不是我们预先最担心的问题,甚至绝大多数可能不在预期内。

道理很简单,无论项目的挑战或风险有多大,只要在双 11 前能预想到,技术侧就一定会做好预案应对最差情况,并且做好演练工作。对于预期外的问题,往往是没有准备预案或者预案有效性没有经过验证,遇到这种情况就非常挑战整个技术团队应急解决问题的能力了。不过,这也是双 11 的魅力所在:

我们永远没有办法对所有问题做好预案,永远有未知的挑战在前方等待,而我们唯有通过技术升级去不断地逼近那个能够做到的最好的极限。

所以,对技术人来说,双 11 永远没有做的最好,只有做的更好。


提前一年,决定上云


今年双 11,我们把“最要命”的系统全都放在云上。

这是当时阿里巴巴集团 CTO、阿里云智能总裁行癫在双 11 当晚说的一句话。如开篇所言,2019 年双 11,阿里实现了核心交易系统 100% 上云,而这个决定早在一年前就做出了。

“每年双 11 结束,全集团都会进行一次全面的技术复盘,除了复盘在整个双 11 过程中的得与失,更重要的是,确定下一年双 11 技术的整体方向。2018 年双 11 复盘时,集团就整体确定了将核心电商搬到云上的大策略。”

2019 年 1 月份,上云项目正式启动,这个项目在阿里内部被称为“云创未来”。电商核心链路全面上云意味着没有云下的资源做切换与互备,平畴表示,这涉及到阿里电商数百个核心应用,上万台物理机台,总核数过百万核。可想而知,这其中的挑战有多大。

  分步迁移:Q3 季度进入大规模应用开发


为了实现这个目标,从机房到软件部署、网络拓扑、中间件等一系列基础设施都要先行准备并且在更早一些的大促,比如 618 大促中验证有效性。平畴透露,除基础设施外,每年上半年是业务上各类技术平台与框架升级迭代的黄金期,等到 7、8 月份,再结合双 11 业务的具体玩法逐步进入业务应用的大规模开发期间。

按阶段来看,平畴表示,双 11 上云在技术层面可以分为如下三个部分:

1、平稳迁移上云;

2、稳定使用云服务;

3、结合云技术探索新的高效研发方式。


第一阶段:应用迁移上云。

平畴表示,在这个过程中,最大的风险来源于云上基础设施和中间件等产品的变化,应用需要配合这些变化进行改造和升级。

梳理清楚这些变化后,技术团队才有依据判断需要进行哪些相关的应用改造与升级工作,来规避重大风险。在这个过程中,淘系技术推动了中间件二方库升级、版本检测、日志异步化改造、缓存集群迁移等工作,建立了一套应用升级检测的自动化机制和升级流程管理,确保所有应用升级到位,并在云上布署最小业务集群,能够通过自动化业务功能回归来验证迁移后的业务功能一致性。

其次,迁移过程必须有很强的可控性,具备快速容灾能力。平畴表示,淘系技术会通过线上流量的复制进行压测,全量回归云上的应用确保不出现性能退化。压测的同时,技术团队准备好快速切流逃逸的方案,在原有的异地多活的容灾基础上把中心机房建立成 4 个逻辑机房, 实现一键在同城 4 个逻辑机房之间的容灾逃逸能力,并经过多次验证。在具体迁移的过程中,小步骤切流,同时加强云上监控,避免突发性大面积问题出现。

第二个阶段,建立上云保障小组。

淘系内部将云和电商相关的研发一起拉通,明确响应机制和负责人,打通两边的变更系统和告警系统,细化云告警信息中明确关于电商应用相关的信息。通过不定时的模拟攻击云环境,推动两边对故障处理的应急能力提升。

新零售线专门成立了上云、用云项目组,阿里云也有专门的项目成员进行对接。同时,我们有专业的 PMO 来保障跨团队的项目合作,保障日常的周 / 月例会进行信息同步以及项目推进,针对演练中不同的线上问题有专门的应急机制,双 11 项目的横向拉通保障工作也随着多年的技术升级而不断沉淀经验。

为了保障云上的容载能力,双 11 技术项目组组织了多次云上突袭演练,演练云上单元机房不可用情况下的应急手段。通过持续迭代逐步将核心业务搬到云上,过程中持续进行云上回归测试以及切流演练,在双 11 前的几次大促中也验证了线上的用云稳定性。

第三个阶段,结合云技术探索新的研发方式。

上云的过程中,云技术在向云原生发展。除了神龙服务器(阿里云弹性裸金属服务器)之外,新的 ASI 容器也大规模使用。为了探索 Serverless 的价值,淘系技术结合云技术构建了自己的函数平台 FaaS,覆盖淘宝互动、闲鱼、导购、躺平等多个业务场景。这个平台一方面大幅提升了研发效率,另一方面提供了云端一体的轻量级研发方式。
淘系自研云端一体函数平台 Gaia 架构图

在上云的过程中,我们看到基础设施变厚了,研发变得轻了,推动业务研发从 Procode 走向 Lowcode,进而聚焦业务研发,可以更大地释放研发生产力。


端侧 AI 决策 140 亿次


上云、做 AI,这是近两年所有重视技术研发的科技公司的大主题。在上云之前,阿里淘系就开始研发端侧的智能应用,这也符合当下国人的消费习惯,大部分消费者习惯通过移动端进行交易。

2019 年,手淘大规模使用端上 AI 技术,在客户端实现对用户行为的实时感知,应用深度神经网络进行用户意图识别,并根据识别结果进行智能决策,做到推荐内容的实时更新,大幅提升个性化推荐效果和用户体验。

2019 年双 11 当天,端侧 AI 决策一共运行了 140 亿次,对于信息流的个性化推荐、消息的智能投递、直播的商品智能检测,效果上都有非常大幅度的提升。平畴表示,淘系技术部的轻量级深度学习端侧推理引擎 MNN 已经开源,这种有效利用云与端的各自数据和计算优势的方式一定是未来的发展趋势。


除了端侧的 AI 技术研发,阿里淘系也正在将深度学习、机器视觉和 3D 技术结合在一起,形成 3D AI 的方向,并将之应用于躺平家装和家居领域。

最近五到十年,人工智能技术有了突飞猛进的进展,集中表现在深度学习,以及深度学习和人工智能问题的结合上,但是越来越多人对于人工智能技术是否可以再取得突破有所疑虑。平畴坦言,过去两三年,业界对人工智能的作用有过度夸大。人工智能提升甚至创造新的场景需要和业务、产品、工程的深度结合,这需要较长的时间摸索。理想和现实的差距让人们转而认为人工智能达到了瓶颈,这是缺少对技术到产品转化规律的耐心和尊重的表现。

新的人工智能应用场景的出现不仅需要人工智能技术发展这单一的条件,更是依赖数据、业务和产品的发展。因此,开发人工智能新场景不仅仅是人工智能技术团队的工作,也不是简单的理论结合实际,而是需要打造基础设施、新产品、新的数据的积累。有了这些条件,人工智能的新场景才会源源不断的孕育出来。

人工智能是战术,核心还是具体场景的需求满足,如何准确定义场景和相应的衡量体系才是人工智能发挥所长的前提。


未来规划


2019 年的双 11 过后,阿里内部同样召开了一场复盘会。平畴透露,2019 年的双 11 是技术历史上消费者最顺滑的一次,交易核心链路全面上云,淘宝直播的同时在线人数也创了历史新高。

未来,阿里会持续不断提升购物车、下单等核心链路的消费体验,同时通过技术升级的手段大幅优化整体资源使用效率,降低大促过程中的技术资源使用成本。

接下来,阿里淘系的研发重点会聚焦在 5G 可能带来的技术创新。平畴补充道,随着 5G 的发展,网络速度越来越快,视频和直播的普及度越来越高。对于淘宝和阿里来说,传统的电商是基于图文和用户进行交互,5G 会带来新的购物方式。目前来看,直播是一种新的变化,5G 的部署可能会让直播上出现 AR 互动,底层的低延时直播相关技术(编解码、低延时通信)应该也会给消费者带来新的消费体验。

此外,AI、端计算、基于物理的 3D 渲染等技术在业务上的实施和应用也是十分值得关注的技术,将 AI 技术应用到智能家居、家装领域,智能化、自动化地为用户提供专业设计师水准的软硬装设计方案,并且基于物理的 3D 渲染技术将设计师的设计方案渲染出照片级的逼真效果。同时,以全链路数字化改造为基础,以用户定制化、场景化为消费者提供服务,形成端到端的解决方案,这些技术的高度结合才能创造极致的用户体验。

One More Thing


淘系技术部依托淘系丰富的业务形态和海量的用户,我们持续以技术驱动产品和商业创新,不断探索和衍生颠覆型互联网新技术,以更加智能、友好、普惠的科技深度重塑产业和用户体验,打造新商业。我们不断吸引用户增长、机器学习、视觉算法、音视频通信、数字媒体、移动技术、端侧智能等领域全球顶尖专业人才加入,让科技引领面向未来的商业创新和进步。

请投递简历至邮箱:ruoqi.zlj@taobao.com

了解更多职位详情:更好的世界 需要更好的你 | 淘系技术2020校招通道正式开启!


END


双十一好文
点击下方图片即可阅读

淘系技术,实力为2019年双11而战!稳!

更好的世界 需要更好的你 | 淘系技术2020校招通道正式开启!



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存